鐵人賽第二十二天~集成式學習

2023 iThome 鐵人賽

DAY 22

AI & Data

打造數據科學之路：資料分析與機器學習的完整指南系列第 22 篇

15th鐵人賽

smart1225

2023-10-07 14:31:14

383 瀏覽

分享至

~今天要分享的是「集成式學習」~

集成式學習(Ensemble Learning)，有些地方會翻譯成薈萃式學習，最重要的核心概念是：將多個機器學習模型組合在一起，來提高整體模型的預測能力和泛化能力。這種方式就像是俗話說的：「三個臭皮匠，勝過一個諸葛亮」，多個普通模型結合在一起，可以優於一個優良模型的能力，常見的集成式學習方法有：Bagging、Boosting、Blending、Stacking。

Bagging： Bagging一詞是來自於Bootstrap AGGregatING的縮寫，中文稱作「拔靴集成法」，上一篇分享的隨機森林模型就是一種拔靴集成法。這種集成式方法是透過隨機選取資料當作子集來進行分析，而這些隨機選取的資料是取後放回的，代表在下一次的選取有可能會再次選到相同的資料。
Boosting：中文稱作「效能提升法」。此集成式方法的目的是根據前一個模型的預測能力調整下一個模型的訓練數據，也就是將前面模型預測不準確的樣本賦予更高的權重，讓這些樣本在之後的訓練中被選重的機率增加，使後面的模型更專注於改進對這些樣本的預測。
Blending：中文稱作「混合法」。顧名思義就是混合多種機器學習模型的預測結果來建立一個新的模型，以使用這些新特徵進行最終的預測。
Stacking：中文稱作「層積法」。這種集成式方法是將先前的模型訓練結果當作輸入層來訓練下一層的模型，這個過程可以堆疊多層模型，形成一個層層堆疊的結構。